定性 符号 山 , 可 以 是 词 , 也 可 以 是 词组 , 在 我 
| 技 名 词 。 领域 术 语 抽 取 技 术 在 自然 语言 处 理 领域 被 广泛 研究 ， ”的 领域 术语 能 够 准确 快捷 地 了 解 专利 的 方向 以 及 核心 技术 ， 专 


基于 BLSTM_Attention_CRF 模型 的 新 能 源 汽车 领域 术语 抽取 
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摘 要 : 为 提高 新 能 源 汽车 领域 术语 抽取 准确 率 ， 面 向 新 能 源 汽车 专利 文本 提出 一 种 领域 术语 抽取 模型 。 传 统 的 领域 
术语 抽取 方法 过 度 依 赖 人 工 定义 特征 和 领域 知识 ， 无 法 自动 挖掘 隐 含 特征 ， 其 识别 性 能 过 度 依赖 所 选 特征 的 质量 。 
此 ， 从 深度 学 习 的 角度 出 发 ， 提 出 了 一 种 基于 Attention 的 双向 长 短 时 记忆 网 络 (bidirectional long short-term memory， 
BLSTM) 与 条 件 随机 场 (conditional random fields, CRF) 相 结合 的 领域 术语 抽取 模型 (BLSTM Attention CRF 模型 ) ， 
并 使 用 基于 词典 与 规则 相 结合 的 方法 对 结果 进行 校正 ， 准 确 率 可 达到 86% 以 上 ， 该 方法 切实 可 行 。 
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Terminology extraction for new energy vehicle based on BLSTM Attention CRF model 


Ma Jianhongl, Zhang Yamei!, Yao Shuang’, Zhang Bingfeil, Guo Changhong! 
(1. School of Computer Science & Sofiware Hebei University of Technology, Tianjin 300401, China; 2. Hebei University of 
Technology, Tianjin 300401, China) 


Abstract: In order to improve the accuracy and recall rate of terminology extraction results in the field of new energy vehicles, 
this paper presented a domain terminology extraction model for the new energy vehicles patent text. Traditional domain 
terminology extraction methods rely too much on human-defined features and specialized domain knowledge to automatically 
mine implicit features whose recognition performance greatly depends on the quality of the selected features. In order to solve 
the problems, this paper proposed a model from the perspective of deep learning. First it extracted the domain terms by a 
combination of BLSTM (bidirectional long short-term memory, BLSTM) model based on the attention mechanism and CRF 
(conditional random fields, CRF) model(BLSTM_ Attention CRF model), and then it corrected the result by a combination 
of dictionary and rules. Experimental results show that the accuracy of BLSTM-ATT-CRF model can reach more than 86%, 
which shows that the BLSTM-ATT-CRF model is effective to term extraction of new energy vehicles. 
Key words: domain term extraction; attention mechanism; bidirectional long short-term memory; conditional random fields; 


dictionary; rules 
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四 成 为 必然 @。 

领域 术语 是 以 语音 或 文字 为 载体 来 表达 或 限定 专业 概念 的 专利 文献 具有 新 颖 性 、 可 靠 性 和 权威 性 ， 是 科技 信息 工作 
符号 国 又 称 为 名 词 或 。 ”的 重要 研究 对 象 ， 通 常 被 认为 是 一 种 重要 的 知识 来 源 。 专 利 中 
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a) 中 文 领域 术语 是 一 个 开放 的 集合 , 随 着 时 间 转 移 会 不 断 


出 现 新 词 ， 所 以 抽取 过 程 中 的 新 词 发 现 情况 无 法 很 好 处 理 。 
汽车 领域 术语 组 合 方式 多 变 ， 词 长 主 
的 长 术语 和 


b) 新 能 刘 


字 不 等 ， 其 中 包含 较 多 
AC/DC 电源 、CAN 总 线 接 


量 报警 传感器 ， 其 中 机 油 ; 
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主要 有 
来 使 用 的 方法 。 周 浪 等 人 
识别 


然后 与 待 测 语 料 进行 模板 匹配 。 


其 于 语言 学 规则 的 方法 、 


c) 新 能 源 汽车 领域 术语 大 多 为 赔 套 和 
、 传 感 器 本 身 又 
统计 ， 新 能 源 汽车 专利 文本 中 复杂 术语 的 数量 约 
前 ,众多 相关 学 者 对 特定 领域 术语 的 抽取 
基于 统计 的 方法 和 两 者 结合 起 
规律 提出 了 构词法 
许多 规则 模板 ， 


根据 术语 的 构 词 ; 
吴 选 术语 。 基 于 语言 学 的 方法 是 预先 定义 好 


要 从 2 一 


英文 混合 的 术语 ， 如 
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0 复合 结构 ， 如 机 油 济 


是 领域 术语 。 


5 到 83%。 


其 缺陷 在 于 


于 语言 组 织 及 


表达 方式 干 变 万 


攻 ， 就 需要 制定 者 有 很 丰富 


据 


改 了 大 量 工 作 ， 


其 


的 语言 知识 ， 定 义 


出 许多 模板 ， 才 能 达到 较 好 的 效果 。 郭 剑 妆 等 人 名 利用 改进 的 


层 登 条 件 随 机 场 模 型 实现 了 旅游 领 


entity recongnition) 任 务 ， 取 得 了 准 


80% 以 上 的 效果 ; 何 宇 等 人 外 利 用 条 件 随机 


取 词 、 词 长 、 词 性 、 依 存 关系 、 


效 地 抽取 了 新 能 汤 


或 的 命名 实体 识别 named 


Chinaxi 
马 建 红 ， 等 : 基于 BLSTM_Attention CRF 模型 的 新 能 源 


够 给 文本 中 的 关键 部 分 分 配 更 多 的 注意 力 。 张 冲 0 设计 了 组 
逆序 attention-Based LSTM 模型 ， 结 合 
LSTM 特点 实现 文本 分 类 。 注 意 力 概率 可 以 突出 特定 的 单词 对 


还 


Attention 机 


“AAA (三 
| Ma 罗 


合 
制 和 双 问 


期 刊 


术语 抽取 


于 整个 句子 的 重要 程度 ， 并 且 考 虑 了 更 多 的 上 下 文 语义 关联 。 


Li 等 人 016 


利用 


基于 CRF 的 双向 LSTM 深层 神经 网 络 模型 实现 


了 对 生物 医学 文本 中 的 不 规则 实体 的 识别 , 正确 率 达 到 81.09%。 


Gridach[l171 利 


] BLSTM 结合 CRF 模型 实现 


的 字符 级 神经 网 络 


完成 了 对 生物 医学 命名 实体 的 识别 ， 在 最 终 实 现 的 系统 上 表现 


出 了 90.27% 的 准确 率 .CREF 相对 于 其 他 模型 可 以 更 有 


a 


士 四 
理 木 。 


在 自然 语言 处 理 


文 标注 


言 轧 ， 所 以 结合 


工 定义 特 生 
体 识 别 模式 。 
所 以 本 文 利 | 


动 挖掘 隐 含 特征 


可 以 


能 有 效 抽取 和 领域 术语 ， 但 是 召 下 


十 和 
村 作 


F 选 


效 抽取 了 领域 术语 。 综 上 分 析 ， 


取 进 行 充分 定义 和 选取 。 广 ! 
长 度 和 语法 特征 的 统计 领域 术语 
取 候 选 术语 时 ， 加 入 基于 术语 长 度 和 语法 特 生 


的 约束 规则 ， 有 
利用 人 工 特征 和 领域 知识 的 方 


法 虽然 取得 了 一 定 的 识别 效果 ， 然 而 这 种 方法 需要 依据 逻辑 
觉 人 工 定 制 大 量 特征 ， 无 法 自动 挖掘 隐 含 特征 ， 其 识别 性 能 
大 程度 上 依赖 所 选取 的 特征 的 质量 。 


1 ”相关 研究 


在 以 上 背景 下 ， 为 解决 新 能 源 汽 车 领域 术语 


取 问 题 中 


本 文 从 深度 学 习 的 角度 提出 一 利 


在 的 难点 问题 和 现 有 方法 中 对 于 人 


工 制定 特征 的 过 度 依 赖 问 


全 新 的 方法 ， 


制定 领域 术语 的 特征 表达 ， 更 


神经 网 络 的 深度 学 习 获取 特征 的 方法 在 
处 理 领 域 取 都 备 受 关注 。 冯 艳 红 等 人 总 


图 像 、 


有 实用 性 。 近 年 来 ， 利 | 


已 不 需要 详 名 


直 
很 


存 


题 ， 


地 


二 


语音 以 及 


利用 


向 量 和 基于 词 的 词 
法 ， 将 领域 知识 租 入 模型 的 


向 量 提出 了 基 


代价 函数 


二 本 
自然 语 


基于 上 下 文 的 词 


及 无 法 有 效 利用 后 文 信息 


识别 能 力 ,取得 了 95% 的 正确 率 ; 
神经 网 络 学 习 文 本 的 隐藏 特征 ， 解 决 了 传统 方 
的 缺点 , 实 


伐 伟 涛 等 人 


Raffel 等 人 13 提出 一 种 适用 于 前 馈 


经 网 络 的 


使 用 


法 通 
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见 了 医疗 事件 


简化 的 注意 力 


于 BLSTM 的 命名 实体 识别 方 
HF， 进一步 增强 函数 的 
双向 LSTM 
性 不 强 以 
的 识别 研究 ; 


模 


型 , 证 明了 Attention 机 制 能 够 在 文本 较 长 的 情况 下 有 效 解决 信 
等 人 0 提出 的 层次 化 注意 网 络 


息 丢 失 等 长 距离 依赖 问题 Yang 


有 两 个 


了 Attention 机 


层次 的 注意 机 制 ， 在 单词 和 句子 层次 上 应 用 ， 使 它 能 
在 构造 文档 表示 时 关注 关键 内 容 , 充分 说 明 


判 能 


领域 专利 文本 进行 预 处 理 , 之 


深度 学 习 的 方法 研究 新 能 源 汽车 领域 术语 抽 
题 。 领 域 术 语 的 抽取 可 以 转换 为 序列 标注 问题 。 


训练 算法 存在 梯度 消 
上 门限 机 制 很 


本 文 提出 BLSTM-ATT-CRF+ 校 正 模 型 , 首先 对 新 能 源 汽 车 


然后 进入 BLSTM-ATT-CRF 模型 
模型 既 考 虑 了 
Attention 机 制 的 加 入 计算 注意 力 分 配 概率 ， 有 效 防 止 信 
失 ， 突 出 关键 词 的 作用 ， 同 时 与 CRF 
处 理 输出 标签 时 无 法 很 好 地 处 


进行 标 当 


效 地 关注 


不 考虑 下 
同时 考虑 上 下 文 信息 ， 对 


BLSTM 模型 可 以 有 效 的 改善 实验 


领域 ， 基 于 深度 学 习 的 这 类 方法 减少 了 人 
E 和 对 领域 知识 的 过 度 依赖 ， 实 现 了 端 至 
了 效 的 解决 新 词 发 现 问 题 ， 


I 端的 命名 实 


取 问 


循环 神经 网 络 


确 率 、 召 回 率 和 F1 值 均 在 (recurrent neural network，RNN) 是 一 种 有 效 的 解决 序列 标注 
声 作为 抽取 模型 , 选 问题 的 神经 网 络 模型 ， 但 是 RNN 无 法 很 好 地 处 理 自然 语言 处 
词典 位 置 等 作为 特征 模板 ， 有 里 中 不 可 忽视 的 长 距离 依赖 问题 ， 并 且 划 
汽车 领域 术语 。 基 于 条 件 随 机 场 的 模型 虽然 。 失 或 爆炸 问题 ,而 LSTM 模型 通过 引入 记忆 单元 条 
率 不 稳定 ， 需 要 对 文本 标注 和 ”好 地 解决 了 这 个 问题 , 但 是 LSTM 只 考虑 上 文 信息 ， 
里 等 人 0 提出 一 种 基于 术语 。 文 信息 ,双向 的 LSTM ( 即 BLSTM) 
取 方 法 ， 在 利用 机 器 学 习 抽 ”于 本 文 的 新 能 源 汽车 领域 术语 抽取 问题 具有 极 大 意义 。 


后 进行 Word Embedding 疝 量化 ， 
E。BLSTM-ATT-CRF 
上 下 文 信息 ， 有 效 解决 了 长 距离 依赖 ， 又 能 通过 


可 
结合 ， 


和 二- 


在 标 沪 


FE 完 成 之 后 ， 建 立 基 于 i 


更 好 的 标注 效果 。 


2 ”新 能 源 汽车 领域 术语 抽取 模型 

本 文 首先 对 要 处 理 的 新 能 源 汽车 专利 文本 进行 预 处 理 ， 包 
括 分 词 、 词 性 标注 、 去 停 用 词 、 标 点 过 滤 等 。 为 降低 运算 复杂 
度 和 防止 分 词 工具 过 度 切 分 ， 本 文 添加 停 用 词 表 和 用 户 词典 畏 
助 分 词 系统 进行 分 词 。 本 文 将 新 能 源 汽车 领域 术语 的 抽取 转换 


为 序列 标注 问题 ， 提 出 BLSTM-ATT-CRF 标注 模型 和 


与 规则 的 校 


息 的 丢 
解决 了 BLSTM 在 
强烈 依赖 关系 的 数据 的 难题 。 
E 模 型 ， 从 而 取得 


与 规则 的 校正 模型 。 完 整 的 标注 流程 如 医 
Word Embedding 向 量化 
文本 预 处 理 之 后 进 


2.1 


多 


行 Word Embedding 
Word Embedding 技术 是 一 种 采用 机 器 学 习 将 自 


1 所 示 。 


巧 于 词 


向 量化 5 表示 。 
和 词 映 射 到 实数 


低 


向 量 的 技术 ， 可 以 避免 传统 词 向 届 


时 的 维 


度 过 高 或 向 里 


PE 


问题 ， 


句子 和 


还 能 提供 含有 语义 信息 的 词 向 量 。 


后 


卫 个 词组 成 ， X={t1,t2,...,tn} » 
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该 过 程 如 下 : 设 样本 
区 个 词 tt 为 词 的 


录用 稿 


one-hot 表示 。 词 嵌入 xt 为 


其 中 : WY* eR 


te RN， 克 ER,，d 为 embedding 向 量 


示 下 词典 的 大 小 。 


emb 
Ww Wr 


全 度 ， 


训练 文本 


, 为 embedding 向 量 查 询 表 , 需要 训练 得 到 ; 
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文本 预 处 理 


| [Wor Embeding 
向 量化 


~ 
基于 词典 与 规则 
一 校正 
特征 库 n 
Mage 
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(1) 
|v| 为 one-hot 表 
测试 过 程 


2.2.1 BLSTM 模型 


CRF 层 


Softmax 输 出 层 


BLSTM-ATT 层 | 


Word embeddings 


文本 输入 


文献 [20] 中 提 昌 
了 对 长 距离 信 


B 的 LSTM 引 


图 1 


领域 术语 标注 框架 


入 记忆 单元 和 门限 机 制 ， 实 现 


有 效 地 利用 


了 文本 序列 的 上 下 文 信息 ， 可 以 
征 , 有 效 解决 新 能 源 汽车 领域 术语 扫 


BLSTM 结构 如 图 


3 所 示 。 
图 3 中 xt 表示 BLSTM 模型 在 t 时 刻 专 利文 本 经 过 Word 


Embedding 以 后 的 向 量 


出 ， 


取 问 题 ， 


更 多 地 挖掘 
取 问 题 中 的 新 词 发 现 问题 。 


息 的 有 效 利 用 ， 解 决 了 RNN 模型 中 存在 的 梯度 
消失 或 者 爆炸 问题 。 但 是 LSTM 只 考虑 文本 的 上 文 信息 ， 不 考 
虑 下 文 信 息 ， 而 对 于 本 文 的 领域 术语 和 
重要 .Graves 等 人 PH 提 出 了 双向 的 LSTM( 即 


下 文 信息 也 很 


BLSTM).BLST™ 
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2.2 BLSTM-ATT-CRF 模型 概述 


本 文 把 术语 抽取 问题 转换 为 序列 标注 问题 。 
转换 ， 需 要 对 分 词 后 的 每 


个 词语 进行 标注 。 


考虑 新 能 源 汽车 


为 了 实现 这 一 


专利 文本 中 包含 大 量 的 英文 术语 ， 定 义 以 下 标注 体系 ， 即 
R={B_cha, I cha, E cha, B_ eng, 1 eng, E eng，0O}, 分 别 代 


表 中 文 术 语 首部 、 


术语 首部 、 英 文 缩写) 术语 
其 他 。 特 别 的 ， 如 果 该 术语 只 包含 一 个 词 ， 那 么 中 英文 只 标注 
首部 标签 即 可 ， 如 果 该 术语 ! 
语 提取 程序 判断 ， 连 在 一 起 的 中 英文 则 为 一 个 领域 术语 。 该 标 


P 文 术语 中 部 、 中文 术语 尾部 、 英文 (缩写) 


Pp 部 、 英 文 (缩写 ) 术语 尾部 、 


中 英文 混合 而 成 ， 


标注 之 后 由 词 


定 和 中 英文 混合 问题 。 


专利 文本 经 过 预 处 理 和 


Word Embedding 向 量化 之 后 ， 进 


注 体系 的 定义 明确 界定 了 词语 边界 ， 解 决 了 领域 术语 中 词 长 不 


入 BLSTM-ATT-CRF 模型 进行 训练 。BLSTM-ATT-CRF 模型 架 


构 如 图 


2 所 示 。 


| 
上 
1 
1 
上 
1 
1 
上 
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图 2 BLSTM-ATT-CRF 模型 架构 


2.2.2 Attention 机 制 


Attention 机 制 是 一 种 模拟 人 脑 注 意 力 的 机 
借鉴 了 人 脑 在 特定 时 刻 对 于 事物 的 注意 力 会 
而 忽略 其 他 非 关键 点 ， 是 一 种 人 脑 资源 分 本 


! 
基于 attention 的 LSTM 


nt 


一 上 


判 的 主要 作用 


剖 ， 核心 思想 是 
Ph 在 某 个 关键 点 ， 
模型 2 。 所 以 该 机 


隐 含 特 


此 表示 ; 万 是 前 向 LSTM 在 t 时 刻 的 输 
所 为 反 向 LSTM 在 t 时刻 的 输出 ， 所 以 BLSTM 在 t+ 时刻 


的 输出 表示 定义 为 hh=[h,h]， 就 是 直接 拼接 思 和 有 。 


| LSTM 


LSTM LSTM 


LSTM 


GD (DD DO WD 加 


图 3 BLSTM 模型 结构 


进行 组 全 
键 词 的 作 / 


制 的 与 BLSTM 模型 
的 LSTM) ， 有 效 突出 关 


是 对 于 关键 词 可 以 分 配 较 多 的 注意 力 ， 而 对 于 其 
也 部 分 分 配 较 少 的 注意 力 。 将 Attention 机 
〈 见 图 2 右 侧 基 于 Attention 


j。 例 如 对 于 文本 “ 汽车 的 制 动 是 通过 


大 


Attention 机 制 的 情况 下 ，BLSTM 模型 本 身 关注 的 是 上 


钳 或 制 动 藤 与 制 动 E 


如 
全 


6 


帝 之 间 的 摩擦 来 实现 的 ”和 “ 制 动 能 量 回 馈 


是 提高 汽车 能 量 效率 的 一 个 非常 重要 的 手段 ”， 


在 不 加 入 


文 信 


息 ， 无 法 实现 重点 关注 “ 制 动 ”这 个 关键 词 ， 加 入 Attention 之 


后 ，Attention 通过 计算 权重 可 以 实现 这 一 功能 。 文 本 预 处 
标注 ,考虑 新 能 源 汽车 专利 文本 术语 多 数 存在 定 中 、 
动 宾 和 主 谓 关系 ， 在 BLSTM-ATT 层 
行 训练 。 本 文 attention 机 


进行 了 词性 


去 


exp(eu) 

了 
Fexp(e,) 
er =vtanh(Wh, + Uh, +b) 


C= Yuh 
i=1 


Gu = 


同时 把 词性 作为 特征 进 
判 的 相关 计算 公式 如 下 所 示 ; 


往 时 


2 
G3) 


(4) 
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h,=H(C,h.,X') (5) 
式 〈5) 计算 的 是 注意 力 概 率 分 布 的 语义 编码 ，% 计算 的 
是 节点 i 对 于 节点 的 注意 力 概率 权重 。T 为 输入 序列 的 元 素 


的 数目 。V、W、U 为 权重 矩阵 ， 本 文中 attention 机制 的 输入 为 


上 文 BLSTM 的 输出 ; 
BLSTM 模型 中 反 向 输出 及 。 


hi 为 BLSTM 模型 中 前 向 输出 ;hr 为 
BLSTM 输出 的 所 有 结果 都 进入 


attention 进行 计算 。C 是 语义 编码 。 hw' 就 是 最 终 的 特征 向 量 ， 
该 特征 向 量 表现 为 突出 关键 词 的 语义 信息 。 
2.2.3 BLSTM-ATT-CRF 模型 


条 件 随 机 场 模 型 (conditional random fields, CRF ) 是 Lafferty 
等 人 中 提出 的 一 种 无 向 图 的 模型 , 在 中 文 分 词 、 命 名 实体 识别 、 


歧义 消解 等 汉语 自然 语言 处 理 


现 P4。 


任务 中 都 有 应 用 ， 并 有 着 良好 表 
在 基于 Attention 机 制 的 BLSTM 模型 中 引入 CRF 模型 ， 


使 得 模型 在 结合 上 下 文 信息 的 同时 可 以 有 效 地 考虑 输出 标签 前 
后 的 依赖 关系 。 实 际 效果 中 BLSTM-ATT 模型 和 在 加 入 CRF 之 
后 的 BLSTM-ATT-CRF 模型 表现 如 表 1 所 示 。 原 因 就 是 CRF 模 


型 可 以 有 效 考虑 标签 B_cha 与 E_cha 之 间 的 依赖 关系 ， 所 以 可 


以 正确 识别 出 此 处 “功率 分 析 仪 ”是 一 个 完整 术语 , 而 BLSTM- 
ATIT 模型 无 法 做 到 这 一 点 ， 所 以 会 错误 的 将 “功率 分 析 仪 ” 划 


分 为 两 个 术语 。 


因此 ，CREF 模型 的 加 入 可 以 有 效 解决 领域 术语 


多 为 嵌 套 和 复合 结构 的 识别 问题 。 
具体 做 法 就 是 在 BLSTM 的 softmax 输出 层 之 后 加 入 CRF 


层 ， 引 入 状态 转移 矩阵 A 作为 CRF 层 的 参数 ， 设 矩阵 工 为 
BLSTM 的 输出 , 其 中 Ai,j 表 示 时 间 顺 序 上 从 第 i 个 状态 转移 到 
第 j 个 状态 的 概率 ;Li j 表示 观察 序列 中 第 
个 标注 的 概率 。 本 文采 
特 比 算法 解码 ,观察 序列 


i 个 词 被 标注 为 第 j 
] 最 大 似 然 估计 作为 代价 函数 ， 采 用 维 
X 的 待 预 测 标注 序列 Y= (yiy2woy， 


EF 


的 输出 计算 公式 为 


s(X,Y)= > (hw + by) (6) 
i=l 


logL(y|X) =s(X,Y) -log > vexp(s(X,Y")) (7) 


表 1 BLSTM-ATT 模型 和 BLSTM-ATT-CRF 模型 标注 对 比 
模型 标注 结果 
通过 /O 功率 /B_cha 分 析 仪 /B_cha 采集 /0 电机 /B_cha 
BLSTM-ATT ”运行 /0 的 /O 输入 /O 电流 /B_cha 和 /O 输入 /O 电压 
/B_cha 
通过 /O 功率 /B_cha 分 析 仪 /E_cha 采集 /O 电机 /B_cha 
BLSTM-ATT- 
运行 /0 的 /0 输入 /0O 电流 /B_cha 和 /0O 输入 /O 电压 
CRF 


/B_cha 


2.3 ”基于 词典 与 规则 的 校正 
经 过 对 新 能 源 汽车 的 领域 特征 及 语言 特征 进行 分 析 统 计 ， 


其 领域 术语 构成 存在 特定 规律 。 


而 专利 文本 中 新 能 源 汽车 领域 


术语 以 名 词 结尾 的 占 86.47%P2， 其 中 又 包含 一 些 常 用 关键 词 ， 


如 器 、 
为 定 


车 、 机 等 ， 新 能 源 汽车 领域 术语 首 词 与 中 心 词 之 间 大 多 
Ph 关系、 主 谓 关 系 和 动 宾 关 系 ， 约 占 78%P5。 所 以 本 文 最 


iv 合 作 期 刊 


ChinaX 
基于 BLSTM_Attention_CRF 模型 的 新 能 源 汽车 领域 术语 抽取 


马 建 红 ， 等 : 
后 采用 基于 词典 与 规则 相 结 合 的 方法 对 BLSTM-ATT-CRF 模型 


的 识别 结果 进行 校正 ， 以 提高 抽取 结果 的 正确 率 。 对 新 能 源 汽 


车 领域 术语 进行 校正 的 对 象 是 新 能 源 汽车 领域 术语 的 中 文 表述 


和 别名 。 新 能 源 汽车 领域 术语 大 多 为 名 词 短语 。 分 析 发 现 虽 然 
构成 新 能 源 汽车 领域 术语 的 词性 组 合 有 多 种 模式 ， 但 是 词性 主 


要 为 名 词 、 


《GB/T 19596-2004 电动 汽车 术语 》、 
动 乘 用 车 技术 条 件 》、 
《GB/T 20042. 1 质子 交换 膜 燃料 电池 术语 》 等 文献 中 新 


语 》 和 


动 名 词 和 形容 词 这 三 种 为 主 。 据 此 ， 本 文通 过 分 析 
《GB/T 28382-2012 纯 电 
动 汽车 术 


《GB/T24548-2009 燃料 电池 


能 源 汽 车 领域 中 所 包含 的 术语 特征 ， 人 工 建 立新 能 源 汽车 领域 


术语 特征 词 库 ， 如 表 2 所 示 。 通 过 总 结 文献 中 新 能 源 汽车 领域 
术语 构 词 规律 ， 建 立新 能 源 汽 车 领域 术语 构 词 特征 库 ， 如 表 


所 示 。 并 制定 相应 规则 进行 判断 : 


表 2 新 能 源 汽车 领域 术语 特征 词 库 示 例 


村 征 词类 示例 
常用 名 词 (A) 活塞 、 连 杆 、 轴 承 、 涡 轮 、… 
常用 动词 (B) 供 油 、 喷 油 、 喷 气 、 进 气 、 
常用 词 级 ( 尾 ) 〈C) 器 、 车 、 机 、 环 、 缸 … 
常用 形容 词 (D) 管 式 、 烙 结 式 、 耐 油 、 抗 静电 、.… 


天 干 (E) 、 和 希腊 词 母 (FEF) 、 汉 文 数 词 
(G) 、 罗 马 数 词 (H) 


其 他 词类 


表 3 新 能 源 汽车 领域 术语 构 词 特征 库 
构 词 特征 示例 
n 控制 器 、 扶 手 、 车 厢 、 
ntn 发 动机 舱 、 蓄 电池 箱 、 车 身 附件 、 发 动机 党 、 
泡沫 塑料 软 热 、 乳 胶 标 丝 软 垫 、 轮 缘 端 部 半径 、 座 椅 
n+tntn 四 
中 心平 面 、 
E 门 开启 角 、 螺 栓 孔 分 布 圆 直径 、 带 束 斜 交 轮胎 、 
ntvn+n 
花纹 加 强 筋 … 
胎 面 花纹 展开 图 、 轮 胎 气 门 嘴 〈 孔 ) 位 置 、 机 油 油 量 
nt+nt+vn+n 
报警 传感器 .… 
nintntn 航空 轮胎 圆 形 截面 、 实 心 轮胎 基部 宽度 、.… 
ad+n 厢 式 货 箱 、 单 人 座 椅 、 对 开 式 车 轮 、 筷 入 式 头 枕 、… 
管 式 自行 车 轮胎 、 粘 结 式 实心 轮胎 、 非 粘 结 式 实心 轮 
ad+n+n 
胎 、.… 
双 胎 最 小 间距 、 电 磁 振 动 式 调节 器 、 机 械 吐 合式 起 动 
ntad+n 
机 、 
规则 1 包含 表 1 中 标号 D-H 的 新 能 源 汽车 领域 术语 在 记 


录 中 的 比例 不 足 1%。 若 模型 求 出 的 新 能 源 汽 车 领域 术语 包含 
标号 D-H 中 的 内 容 ， 则 移 到 下 一 个 词 ， 继 续 判 断 是 否 包含 。 若 
包含 继续 移动 ， 直 到 不 包含 或 者 包含 词 库 中 其 他 词 为 止 。 

规则 2 ”被 标注 的 新 能 源 汽车 领域 术语 如 果 符 合 表 2 中 的 


其 中 一 种 形式 , 并且 


表 1 中 词 库 中 已 经 存在 的 词语 组 合 得 到 ， 


那么 该 标注 


序列 直接 标记 为 有 效 的 序列 。 
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规则 3 在 表 1 特征 词 库 的 


础 上 ， 提 出 一 种 文本 术语 匹 _ 识别 出 正确 术语 的 个 数 (RN) 


R SLE 下放 
配 算法 。 算 法 流程 如 图 4 所 示 。 当 库 中 词 条 能 与 待 校 正 样本 完 A 四 
全 匹配 时 ， 无 论 模型 求 得 的 结果 如 何 ， 都 将 该 词组 进行 标注 作 1 2PR 
为 有 效 序 列 。 P+R (10) 


3.2 ”实验 设计 
本 文 使 用 中 科 院 研制 的 汉语 词法 分 析 系 统 ICTCLAS 对 语 
料 进行 分 词 。 为 了 获得 高 质量 的 embedding 向 量 查 询 表 ， 本 文 
首先 提取 《GB/T 19596-2004 电动 汽车 术语 》、《GB/T 28382- 
A 2012 纯 电 动 乘 用 车 技术 条 件 》、《GB/T24548-2009 燃料 电池 电 
动 汽 车 术语 》 和 《GB/T 20042.1 质子 交换 膜 燃料 电池 术语 》 等 
文献 中 新 能 源 汽车 领域 中 所 包含 的 术语 词 条 ， 然 后 利用 
word2vec 工具 中 的 Skip-gram 模型 进行 训练 得 到 。 
BLSTM-ATT-CRF 模型 的 运行 环境 为 64 位 Windows 7 操 
作 系 统 ， 运 行内 存 为 8GB。 模 型 使 用 了 keras 与 theano 的 集成 
框架 实现 ， 实 现 语言 为 Python; 框架 安 转 用 到 第 三 方 平台 为 
3 ”实验 设计 与 结果 分 析 0 并 使 用 反 向 传播 算法 (BPTT) i CRF 
模型 使 用 的 是 CRF++ 0.58 工具 包 ， 其 中 的 模型 参数 值 如 -c、-f 
3.1 实验 语 料 及 评价 标准 等 是 根据 人 工 经 验 设 定 。 该 模型 是 否 能 够 取得 较 好 的 识别 效果 
前 还 没有 出 现 公 认 度 较 高 的 面向 新 能 源 汽车 领域 的 语 料 ， ”与 其 参数 具有 密切 关系 。 其 中 涉及 到 的 参数 有 embedding 向 量 
所 以 本 文 实 验 采 用 的 数据 是 从 专利 网 上 下 载 的 新 能 源 汽车 领域 信 度 、 学 习 率 、 隐 藏 层 单元 数量 以 及 dropout27 值 。 本 文 对 这 
专利 文本 。 由 于 实验 最 终 获 取 的 是 专利 文本 中 的 领域 术语 ， 而 “种 参数 进行 实验 ， 得 到 实验 效果 最 好 的 值 作为 模型 的 参数 。 实 
领域 术语 分 布 在 整 篇 专利 的 中 的 各 个 部 分 ， 为 了 保证 实验 的 通 伶 表 明 ， 各 参数 均 存 在 局 部 最 优 值 ， 当 embedding 向 量 维度 为 
用 性 ， 实 验 采 用 的 是 整 篇 的 专利 文本 ， 本 实验 共 标注 专利 文本 ”200、 学 习 率 为 0.02、 隐 藏 层 单元 数量 为 200 以 及 Droponut 值 为 
1 126 篇 ， 人工 标注 结果 已 经 在 CAI 创新 工具 中 得 到 验证 ， 其 0.1 时 , 模型 的 实验 效果 达到 最 佳 。 除 此 之 外 ， 各 参数 对 实验 效 
中 800 篇 用 于 训练 过 程 ，326 篇 用 于 测试 过 程 。 标 注 样 例如 表 ” 果 的 影响 也 不 尽 相 同 ， 在 此 实验 中 ，embedding 向 量 维 数 对 实 
4 所 示 。 两 个 过 程 文本 数量 及 领域 术语 标注 数量 如 表 5 所 示 。 验 效果 影响 最 大 ， 隐 藏 层 单元 数量 对 实验 效果 的 影响 较 小 。 
4 ”新 能 源 汽车 领域 术语 文本 标注 样 侦 为 了 检验 本 文 模型 对 于 新 能 源 汽车 领域 术语 标注 的 效果 ， 


输入 词 库 中 最 
长 术语 的 词 数 mn 


| 


4 文本 术语 匹配 算法 流程 


瑟 


E 


表 
公开 /v 一 /mm 种 /q 涡 旋 mm 电动 /bb 真空 泵 /n ， /wd 包括 /v 本 文 设计 了 多 组 实验 来 进行 对 比分 析 ， 共 包 含 八 组 实验 : 传统 
0 的 LSTM 模型 实验 、 传 统 的 RNN 模型 实验 、 传 统 的 CRF 模型 


外 壳 体 mm 、/wn 动 /v 涡 旋 各 盘 /qv 。 /wj VCU/n ”采集 /vn 实 仿 、 双 辣 的 LST™M 模型 实验 (BLSTM) 、BLSTM-CRF 模型 


Cur OneAfter Char Label ”当前 词 的 后 面 第 一 个 词 的 标注 标签 
Cur TwoAfter Char Label ”当前 词 的 后 面 第 二 个 词 的 标注 标签 


Bcha 0 o o o o Beng Boha 实验 、 基 于 Attention 机 制 的 BLSTM 模型 实验 (BLSTM-ATT)、， 
传感器 /n 信号 /wj 从 局。 高 压 n 到 w 低压 mn 的 入 BLSTM-ATT-CRF 模型 实验 和 BLSTM-ATT-CRF+ 校 正 模型 实 
Icha Echa 0 0 B-cha o B-cha o 验 。 特 征 选择 如 表 6 所 示 。 其 他 模型 所 用 参数 均 与 上 文 得 出 的 
DC/ws lw DC/ws ”转换 器 /n 。 /wj 参数 相 同 。 
B-eng Ieng  E-eng B-cha O 表 6 CRF 特征 选择 
1 Cur_ Char 当前 词 
表 5 训练 过 程 和 测试 过 程 数据 表 2 Cur_ Char Label 当前 词 的 标注 标签 
专利 /篇 中 文 术语 /个 英文 术语 /个 CU Char Part 当前 词 的 词性 
当前 词 的 前 面 第 一 个 词 的 标注 标签 
训练 集 800 43 127 315 4 Cur OnePre Char Label ”当前 词 的 前 面 第 一 个 词 的 标注 标 
5 Cur TwoPre Char Label ”当前 词 的 前 面 第 二 个 词 的 标注 标签 
测试 集 326 18 457 105 g 
7 
8 


本 文 实验 为 了 减少 外 在 人 为 因素 的 影响 ， 采 用 三 倍 交叉 验 


Cur OnePre Char Part 当前 词 的 前 面 第 一 个 词 的 词性 
证 方式 。 本 文采 用 式 (8) 一 〈10) 指标 衡量 实验 结果 : 准确 率 9 Cur Twopre Char Part 当前 词 的 前 面 第 二 个 词 的 词性 
P， 召 回 率 R，F1 值 。 10 Cur OneAfter Char Part 当前 词 的 后 面 第 一 个 词 的 词性 
证 识别 出 的 正确 的 术语 个 数 (RN) x100% 11 Cur TwoAfter Char Part 当前 词 的 后 面 第 二 个 词 的 词性 

识别 出 的 术语 个 数 (STN) 


(8) 
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3.3 实验 结果 及 分 析 


经 上 述 八 种 模型 实验 后 ， 实 验 结果 如 表 7 


展示 的 实验 数据 可 以 看 出 , 本 文 设 计 的 BLSTM 


模型 能 够 有 效 地 提高 新 能 源 汽车 领域 术语 
上 实验 可 以 看 出 ， 未 经 过 改进 的 模型 1、2、3 虽 
上 能 够 解决 本 文 的 领域 术语 


果 不 
仅 考虑 


佳 。 


上 文 信 息 


文 信 息 ， 使 得 抽 


取 问 题 ， 


所 示 。 从 表 7 所 
-ATT-CRF+ 校 正 


T 


但 是 整 


取 的 效果 。 


et 


然 在 一 定 程度 


体 来 看 取得 的 效 
虽然 LSTM 解决 了 RNN 梯度 消失 的 问题 , 但 是 LSTM 
， 也 不 能 取得 较 好 的 实验 效果 。 实 验 4 中 
BLSTM 模型 解决 了 LSTM 的 这 一 问题 ， 综 合 考 率 文本 的 上 下 


取 的 效果 有 了 较 明显 的 提升 ， 


80.01%。 实 验 6 


比 实验 4 的 了 
1.29%。 其 主要 原因 是 前 者 在 合并 输出 


付 确 率 达 到 了 


E 确 率 提高 了 1.57%，F1 值 提 高 了 
量 时候 Attention 机 制 


= 


为 每 个 输出 向 量 赋 予 了 不 同 的 权 值 ， 
重要 的 向 量 
好 地 表征 文本 ， 突 出 关键 词 的 作用 。 通 


的 同时 


对 比 可 以 看 出 ，3 


于 CRF 特 和 


F 模 板 的 合理 制 


使 模型 将 注意 力 集中 在 更 
EF， 从 而 降低 了 无 关 向 量 的 作用 。 这 个 模型 能 够 更 
过 实验 6 和 7 的 对 比 可 
以 看 出 ，CRF 模型 的 引入 对 于 新 能 源 汽车 领域 术语 抽取 具有 
定 的 意义 。 这 是 因为 BLSTM-ATT-CRF 模型 在 考虑 上 下 文 
定 还 考虑 了 句子 前 后 的 标 
宫 息 ， 所 以 该 模型 能 够 取得 不 错 的 效果 。 通 过 实验 7 和 8 的 
入 校正 模块 能 够 明显 提升 正确 率 和 召 


言 息 


| 


率 。 


因为 


这 是 因为 基于 词 


析 ， 


且 考 虑 专 不 


与 规则 校正 模型 是 基 了 
I 文本 的 表达 习惯 
子 原 义 的 基础 上 进行 判断 分 析 。 综 上 所 述 , 本 文 设计 的 BLSTM- 


六 对 句子 结构 的 深入 分 


提出 的 ， 


其 更 能 在 尊重 名 


ATT-CRF+ 校 正 模 型 可 以 取得 比 一 般 深度 学 习 模 型 更 好 的 实验 


效果 。 
表 7 实验 结 
指标 
实验 标号 模型 名 称 
P 准确 率 /% R_ 召 回 率 /% Fl 值 /% 
1 LSTM 77.26 75.66 76.45 
2 RNN 75.55 72:57 74.03 
3 CRF 73.53 68.42 70.88 
4 BLSTM 80.01 78.89 79.44 
5 BLSTM-CRF 82.24 79.09 80.63 
6 BLSTM-ATT 81.58 79.91 80.73 
7 BLSTM-ATT-CRF 84.27 81.99 83.11 
BLSTM-ATT-CRF+ 
8 86.62 85.07 85.83 
校正 
4 ”结束 语 
综 上 所 述 ， 本 文 提 出 一 种 面向 新 能 源 汽车 领域 专利 文本 的 


领域 术语 抽取 方 汶 
该 模型 解决 了 文本 标注 过 程 
于 其 他 
文 新 能 源 汽车 领 


型 同样 适 | 


KE 。 本 文 首先 如 
存在 
领域 的 领域 术语 抽取 问题 。 


EY 了 BLSTM-ATT-CRF 模型 ， 
的 多 种 共性 问题 ， 所 以 该 模 
但 是 为 了 提高 本 


域 术语 标注 的 准确 率 以 及 Fl 值 ， 在 经 过 


BLSTM-ATT-CRF 模型 标注 的 3 


基础 之 


上 ， 文 本 深入 挖掘 领域 术 
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马 

语 的 句子 构成 和 专利 文本 的 表达 特征 ， 进 一 步 制 定 了 基于 词 
和 规则 的 校正 模型 。 经 过 对 比 实验 表明 ， 本 文 模型 具有 较 好 的 
准确 性 和 重 棒 性 。 接 下 来 将 在 继续 增加 语 料 的 基础 上 对 方法 继 
续 优 化 ， 对 词典 和 校正 规则 进行 进一步 扩充 ， 使 抽取 结果 更 加 
严谨 而 有 效 ， 使 得 模型 具有 更 好 的 泛 化 性 。 

参考 文献 : 

1] Zhu Xiaojin. Semi-supervised learning literature survey, TR-1530 [R]. [S. 
1.] : University of Wisconsin-Madison. 2008. 

2] 王 密 平 . 汉语 专利 术语 抽取 及 应 用 研究 [D]. 南京 : 南京 大 学 , 2017. 

3] 樊 梦 佳 , 段 东 圣 , 杜 娘 兰 , 等 . 统计 与 规则 相 融 合 的 领域 术语 抽取 算法 
[J]. 计算 机 应 用 研究 , 2016, 33 (8): 2282-2285, 2306. 

4] 葛 购 , 上 户 宝 华 , 杨 湘 华 , 等 . 谈 高 校 科 技 发 展 中 专利 文献 的 利用 [J]. 
技术 与 创新 管理 , 2005, 26 (1): 68-70. 

5] 机 志 琦 ， 邵 日 剑 . 有 效 利 用 专利 文献 提高 企业 技术 创新 能 力 [J]. 山西 
科技 , 2008 (1): 91-93 

6] 王 密 平 ， 王 昊 ， 邓 三 鸿 ,等 . 基于 CRF 的 冶金 领域 中 文 专利 术语 抽取 研 
究 [可 . 现代 图 书 情 报 技术 ,2016 (6): 28-36 

7] 周 浪 , 史 树 敏 , 汉 冲 ,等 . 基于 多 策略 融合 的 中 文 术语 抽取 方法 []]. 
情报 学 报 , 2010, 29 (3): 460-467. 

8] 郭 剑 毅 ， 薛 征 山 ， 余 正 涛 ,等 . 基于 层 合 条件 随机 场 的 旅游 领域 命名 实 
体 识别 [加 . 中 文 信息 学 报 ,2009, 23 (5): 47-52. 

9] 何 宇 , 吕 学 强 , 徐 丽 萍 . 新 能 源 汽车 领域 中 文 术 语 抽取 方法 [四 . 现代 
图 书 情 报 技术 , 2015 (10): 88-94. 

10] 刘 里 ， 肖 迎 元 . 基于 术语 长 度 和 语法 特征 的 统计 领域 术语 抽取 [可 . 哈 
尔 滨 工程 大 学 学 报 , 2017 (9): 1437-1443. 

11] 冯 存 红 ， 于 红 ， 孙 庚 , 等 . 基于 BLSTM 的 命名 实体 识别 方法 [JWOL]. 
计算 机 科学 , 2018 (2): (2017-05-16) . 

12] 候 伟 涛 ， 姬 东 鸿 . 基于 Bi-LSTM 的 医疗 事件 识别 研究 [JWOL]. 计算 机 
应 用 研究 , 2018, 35 (7): 1-2 (2017-07-27) . 

13] Raffel C, Ellis DP W. Feed-forward networks with attention can solve some 
long-term memory problems [Cl]// Proc of ICLR 2016 Workshop 
Submissionreaders. 2016. 

[14] Yang Z, Yang D, Dyer C, et al. Hierarchical attention networks for document 


[15 


[16 


[17 


classification [C]// Proc of Conference of the North American Chapter of the 
Association for Computational Linguistics: Human Language Technologies. 
2017: 1480-1489. 

] 张 冲 . 基于 Attention-Based LSTM 模型 的 文本 分 类 技术 的 研究 [D]. 南 
京 : 南京 大 学 , 2016. 

] Li Fei, Zhang Meishan, Tian Bo, et al. Recognizing irregular entities in 
biomedical text via deep neural networks [C]/ Proc of Pattern Recognition 
Letters. 2017. 

] Mourad Gridach. Character-level neural network for biomedical named 


entity recognition [J]. Journal of Biomedical Informatics, 2017, 70. 


[18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words 


and phrases and their compositionality [C]// Advances in Neural Information 


201804.02062v1 


chinaXiv 


录用 稿 


Processing Systems. 2013: 3111-3119. 

[19] 孟 欣 ,， 左 万 利 . 基于 word embedding 的 短文 本 特征 扩展 与 分 类 []]. 
型 微型 计算 机 系统 ，2017，38 (8): 1712-1717. 

[20] Jozefowicz R, Zaremba W, Sutskever I. An empirical exploration of 
recurrent network architectures [Cl]// Proc of International Conference on 
Machine Learning. 2015: 2342-2350 

[21] Graves A, Schmidhuber J. Framewise phoneme classification with 
bidirectional LSTM and other neural network architectures [J]. Nrural 
Networks, 2005, 18 (5): 602-610. 

[22] 张 冲 ， 基 于 Attention-based LSTM 模型 的 文本 分 类 技术 的 研究 [D]. 南 
京 : 南京 大 学 , 2016. 


[23] Lafferty J, McCallum A, Pereira F. Conditional random fields: probabilistic 


马 建 红 ， 等 : 基于 BLSTM _ Attention CRF a n 新 oY 


25 


26 


27 


术语 抽取 


本 


iv 合 作 期 域 术 


A 


models for segmenting and labeling sequence data [C]// Proc of the 18th 
International Conference on Machine Learning. San Francisco: Morgan 
Kaufmann Publishers, 2001: 282-289 

郑 敏 洁 , 雷 志 城 , 刻 祥 文 , 等 . 中 文句 子 评价 对 象 抽 取 的 特征 分 析 研 究 
[四 . 福州 大 学 学 报 : 自然 科学 版 , 2012, 40 (5): 584-590. 

何 字 , 吕 学 强 , 徐 丽 萍 . 新 能 源 汽车 领域 中 文 术语 抽取 方法 [加 . 现代 
图 书 情 报 技术 , 2015 (10): 88-94. 

Werbos PJ. Backpropagation through time: what it does and how to do it [J]. 


Proceedings of the IEEE, 1990, 78 (10): 1550-1560. 


Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks 
by preventing co-adaptation of feature detectors [J]. Computer Science, 


2012, 3 (4): 212-223. 


